关注奇绩的小伙伴,奇绩潜空间第四季活动开始报名,第一期活动时间为 9 月 28 日。【奇绩潜空间】是 GenAI 时代冲得最快的一批科研学者/从业者/创业者聚集的 AI 人才社区,我们定期邀请大模型前沿创业者分享产品实践探索,邀请前沿科研学者分享最新技术进展。第四季我们邀请到 vLLM 的创始人之一李卓翰、阶跃星辰系统负责人朱亦博、硅基流动的创始人兼 CEO 袁进辉、Lepton AI 的创始成员鱼哲与大家交流创业经验。【第 1 期嘉宾介绍】李卓翰——vLLM 创始人之一,加州大学伯克利分校博士生,负责 vLLM 的高层设计与开源社区管理。李卓翰在计算机科学和人工智能领域有着丰富的背景和经验,尤其在优化和提升大型语言模型的性能方面有显著贡献。vLLM 作为一个开源的大模型推理加速框架,已经可以支持 30+ 生成式大语言模型。李卓翰将带来《 vLLM : 构建高效的开源 LLM 推理引擎(vLLM:Building Efficient Open-Source LLM Inference Engine)》的分享。【第 2 期嘉宾介绍】朱亦博——阶跃星辰(StepFun)系统负责人,曾任微软必应引擎核心搜索团队前负责人。朱亦博在大规模数据处理和人工智能算法优化方面有着深厚的背景和丰富的经验。阶跃星辰专注于通用大模型的研发,发布了 Step 系列通用大模型,包括千亿参数的语言大模型和多模态大模型,以及万亿参数的 MoE 语言大模型预览版。本次活动他将分享《从模型到集群硬件,关于全栈式 AI Infra 设计与搭建的思考》。【第 3 期嘉宾介绍】袁进辉——硅基流动(SiliconFlow)创始人兼 CEO ,曾任微软亚洲研究院主管研究员,获得微软亚洲研究院院长特别奖。硅基流动是我们的校友企业,专注于 AI Infra 领域,目标解决大模型训练与推理的效率问题和降低 AI 应用开发的门槛与成本,加速 AGI 普惠人类。本次分享中袁进辉将和我们聊聊他 AI Infra 创业 10 年的得与失。【第 4 期嘉宾介绍】鱼哲——Lepton AI 创始成员,曾在阿里云担任高性能 AI 平台产品负责人,专注于 AI 在多个行业的落地及应用。Lepton AI 是由鱼哲与贾扬清联合创立的 AI 公司,致力于建立高效的 AI 应用平台,让用户处理所有的 DevOps 细节,使用户在几分钟内高效、大规模地运行 AI 应用。在本次活动中,鱼哲将围绕 AI 产品展开深入思考,他分享的主题是《Beyond Infra,what matters?》。除嘉宾分享外,每期在北京和上海线下都设置了【匹配合伙人 Cofounder Matching】环节。在这里你可以和 GenAI 时代最有活力的创业者和研究者线下面对面交流(往期参与者大多是来自大厂的算法工程师、架构师、AI 产品经理、创新战略部经理及创业者们)。这是一个能让你拓展人脉、碰撞思维火花、共同探索创新之路的平台。你可以在这里找到可以一起讨论相同研究方向、解决技术需求的伙伴,甚至有机会找到志同道合、有共同创业梦想的挚友。宋佳铭——Luma AI 的首席科学家,斯坦福大学计算机科学博士、博士后,曾任职英伟达 DIR 小组科学家 ,创建最早的扩散模型加速算法。宋佳铭分享了他对于微调视频模型以实现 4D 内容生成的探索思路,并通过讲解 Luma AI 在视频生成模型 Dream Machine 上的探索,说明了模型可以从视频数据中学到大量关键的三维特性。现在判断 Late Fusion 和 Early Fusion 哪种方法更优为时过早。特别是还没有太多 Early Fusion 方面的工作。目前大部分方案可能还是基于 Late Fusion。但长期来看,Early Fusion 会有更高的上限,因为它可以更好地利用多模态数据。
有时模型可能无法完全遵循真实的物理场景,可能会出现突然的、不符合逻辑的变化。模型产生了一些视觉错觉,物体出现了一些变形和奇怪的移动状态。可以从三个方向进行改进:控制,提示词,速度。
我认为未来生成 1080P、15-30 秒的视频,与我们现在的工作量只相差几倍。如果将生成既定长度的视频作为一个目标,应该不是太大的问题;但另一个问题是,从产品角度来看,在什么场景下需要连续生成特别长时间的视频?这可能反过来推动我们考虑其价格和产品上的有效性。
陈贝迪——卡内基梅隆大学助理教授,斯坦福大学人工智能博士后学者,前 Meta AI 研究科学家。陈贝迪分享了算法、系统以及硬件协同设计的一些性质,以提升长序列生成的效率。他指出 Transformer 模型有许多未开发的能力,其中关于长文本理解的部分启发我们构建了特定数据集,以测试逻辑复杂度对 LLM 性能的影响。Dilemma 的解法之一是 GPU 和 CPU 的 Co-design。我们可以把 static key compression 的部分放在 GPU 上,剩下 dynamic 的部分存起来放到 CPU 上,然后可用 CPU 做计算。
当你深入了解不同的硬件架构及其特性后,你会发现机器学习系统(MLSys)不仅仅是为单一的 GPU 或某一种硬件进行优化。实际上,有许多优化算法可以用于不同的硬件架构,这有点像解谜,各种组合方式非常好玩。此外,我个人的体会是,不能让硬件限制了算法的发展。尽管 GPU 已经非常好了,但我认为仍然需要有人开发它的竞争者。即使我目前的算法可以全部在 GPU 上运行,我仍然会考虑多样化解决方案,因为我不想让硬件定义算法的边界,否则我们可能会陷入同质化的困境。
在追求效率提升的过程中,我们不必局限于减少计算量或简化架构设计。而针对那些在 CPU 上表现不佳但在 GPU 上表现优异的计算任务,我们可以采用硬件协同设计的方法,通过利用成本更低的存储资源,并结合协同工作模式,我们能够实现相似甚至更优的效果。
【内容回顾】第三期嘉宾
童晟邦——纽约大学博士,师从 Yann LeCun 教授和 Saining Xie 教授,克利人工智能实验室( BAIR )研究员。
关键词:多模态大模型
童晟邦与大家探讨了视觉在多模态大模型中扮演的角色主题,具体介绍了从视觉角度研究 MLLMs 在游戏、实际生活和自动驾驶等应用中的视觉处理能力,旨在探索开源社区的多模态模型何时能接近 ChatGPT 的水平,以推动这些模型在更多领域的应用。在讨论 MLLMs 或当前的大模型如 GPT 和 Claude 时,它们的强大能力不容置疑。但我们注意到,目前的 Benchmark 主要集中在智力领域,如数学题解答和大学考试,这些是当前研究的热点。
我们认为 AI 的发展与寒武纪生命大爆炸相似。就像当时生物从单一视觉或语言概念进化到多模态,AI 也在融合多种模态。我们希望 AI 能够像动物长出眼睛那样,标志着一个重要进化阶段,并加速这一过程。
如果想实现超级通用人工智能,可能需要经历 1-2 次关键的突破,或是 1-2 个核心部分的转变,才能达到 AGI 的境界。我认为,这并非阻碍了进展的步伐。回顾人工智能发展的历程,我们经历了多年的技术积累,直至生产力的飞跃推动了深度学习的兴起。从深度学习的诞生至今,大约有 10 年的时间,这一进程并非线性增长,而是呈现出类似火箭发射的轨迹:在经历了初期的快速攀升后,可能会出现一段暂时的停滞,随后再次加速前进。因此,我们可能正处于这一快速发展的阶段即将达到瓶颈的时期,而新的突破即将到来,届时我们将迎来新的创新成果,如同火箭再次冲向更高的高度。
闫俊杰——MiniMax 创始人兼 CEO,是中国第一梯队的大模型创业者。闫俊杰从竞争、模型和技术、产品和战略、商业化、组织和创业几个方面与我们分享了对 AGI 0-1 的探索与实践。【观点节选】(暂不公开分享)
感兴趣的小伙伴,欢迎扫描海报二维码或点击【阅读原文】报名参加。此外,我们还创建了多个大模型专题创业者交流群,如 AI Infra、视频生成、多模态、大模型推理等,欢迎扫描下方二维码添加小助手进群交流。
扫描创业营二维码,提交奇绩创业营申请表,即可【免费】加入社区,【滑动】查看并免费领取创业社区独家资源: